Datensatz und Quelle
In dieser Visualisierung geht es um eine Statistik von den Mannschaften aus den 5 besten Europa Ligas (Deutschland, Frankreich, Spanien, Großbritanien und Italien). Der Datensatz wurde bei Kaggle gefunden. Unter dem folgenden Link https://www.kaggle.com/datasets/vivovinco/20212022-football-team-stats können Sie darauf zugreifen. Darin gibt es insgesamt 98 Mannsachaften, die über 21 unterschiedliche Merkmale wie(Attendance, Goalscored, Bestscorer, Pts, GD, usw.) miteinander verglichen werden.
Einlesemethode der Daten
Die Daten werden erstmal mithilfe von read_delim eingelesen, da die Merkmale durch ein Semikolon getrennt werden. Danach werden sie in einem Data frame ausgelagert. Der Grund dafür ist einfach. Mit einem Data frame und mithilfe von dem Pipeline, Filter, select, mutate,usw. ist es möglich nur auf bestimmte Merkmale zuzugreifen und das vereinfacht die Visualisierung. Die verwendete Encoding hier ist ISO-8859-2. Damit is es auch möglich einige Charakter einzulesen, die uns UTF-8 nicht ermöglicht.
Untersuchung und Thesen
Beim einlesen dieser Daten können unterschiedliche Fragen gestellt werden und zwar:
=> Was sind die Absoluten Häufigkeiten der verfügbaren Länder?(Wie viel mal kommt jedes Land vor) =>Welche Länder haben die meisten Zuschauer? =>Welche Mannschaften haben eine Besucherzahl weniger als den Durchschnitt? =>Was ist das Punktverhältnis zwischen die Länder? =>Welche Mannschaften schießen mehr als den Durchschnitt? =>Welche Mannschaften gewinnen mehr oder weniger als den Durchschnitt? =>Welche Spieler schießen mehr oder weniger als den Durchschnitt? => Wie sieht der Ligaausgleich über die Schießer aus? und vieles mehr..
Es werden auch unterschiedliche Thesen angenommen: =>Die Englische Liga ist die Beste Liga in Europa =>Bayern aus Deutschland hat seit 9 Jahren die Deutsche Liga gewonnen. Sie werden nochmal dieses Jahr gewinnen =>Da Lionel Messi nach Frankreich gewechselt ist wird er auch dort der Bestscorer sein, weil es in Barcelona immer der Fall war =>Die Englische Liga wird am meisten geschaut bzw besucht => Die italienische Liga ist schwer. Darunter bedeutet dass, die Mannschaften nicht nur viele Punkte im Laufe der Saison sammeln können, sondern können auch die Spieler nicht so viele Toren schießen und vieles Mehr..
Wir werden einfach die Unterschiedlichen Fragen, die oben genannt wurden, visualisieren, eine Interpretation davon machen und am Ende sagen, ob die Thesen bestätigt oder abgelehnt wurden.
GPMA=Anzahl von erzielten Toren/ Anzahl von Spielen